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【 目的 】 运用 文本 挖掘 技术 自动 从 海量 科技 文献 中 提取 研究 主题 并 探测 其 研究 趋势 。[ 方法 】 以 《中 文 核 


心 期 刊 要 目 总 览 (2014 年 版 ) ) 一 “TP 自动 化 技术 、 计 算 机 技术 "栏目 前 10 种 期 刊 刊载 的 计算 机 科学 类 (Computer 
Science) 文 献 为 研究 对 象 , 借助 LDA 主题 模型 ， 考 虑 科技 文献 的 发 表 时 间 信 息 , 挖掘 出 典型 话题 ， 并 根据 主题 强 
度 分 析 主 题 的 演化 趋势 。【 结果 】18 个 研究 话题 中 有 7 个 主题 强度 上 升 的 主题 和 6 个 主题 强度 下 降 的 主题 。[ 局 
限 】 仅 分 析 了 国内 计算 机 领域 的 前 10 种 期 刊 , 期 刊 范围 不 够 大 , 也 未 考虑 国外 计算 机 领域 的 期 刊 文献 。[ 结论 】 
该 方法 能 够 深入 挖掘 计算 机 领域 期 刊 文献 的 话题 , 帮助 从 事 该 领域 研究 的 学 者 了 解 主 题 的 演化 趋势 并 寻找 新 兴 
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1 3 引 


计算 机 科学 是 系统 性 研究 信息 与 计算 的 理论 基础 
以 及 它们 在 计算 机 系统 中 如 何 实现 与 应 用 的 实用 技术 
的 学 科 。 在 信息 技术 高 速 发 展 的 时 代 , 计算 机 科学 已 
成 为 各 个 国家 不 可 或 缺 的 学 科 领 域 。 而 科技 文献 作为 
学 术 成 果 的 重要 载体 , 凝聚 了 科研 人 员 的 大 量 智慧 ， 
是 传播 知识 、 进 行 学 术 交 流 的 重要 途径 。 因 此 , 探测 
计算 机 科学 类 文献 的 研究 内 容 ,能够 了 解 计算 机 科学 
领域 的 发 展 状态 。 

笔者 借助 概率 主题 模型 LDA(Latent Dirichlet 
Allocation)"“]， 对 入 选 《 中 文 核心 期 刊 要 目 总 览 (2014 
年 版 ) ) 一 “TP 自动 化 技术 、 计 算 机 技术 ”栏目 前 10 种 
期 刊 刊载 的 计算 机 科学 (Computer Science) 文 献 进 行文 
本 建 模 , 结合 困惑 度 和 专家 判断 确定 模型 的 最 优 主 题 
数 , 同时 考虑 文献 的 发 表 时 间 信 息 ， 从 主题 内 容 和 主 
题 强度 两 方面 , 探测 2006 年 -2015 年 期 间 国内 计算 机 
科学 领域 中 各 个 研究 主题 的 发 展 趋势 ， 并 根据 LDA 
模型 结果 对 文档 进行 聚 类 , 统计 各 个 主题 下 的 文献 数 
量 , 深入 了 解 热点 主题 下 的 文档 内 容 。 通 过 本 文 分 析 ， 
科研 人 员 能 够 初步 了 解 国内 计算 机 科学 领域 近 10 年 


了 中 


证 


的 研究 状态 ,把握 计算 机 科学 领域 的 新 兴 人 研究 主题 ， 
并 判断 哪些 主题 值得 继续 研究 。 


2 相关 研究 现状 


近年 来 , 为 把 握 计算 机 科学 的 发 展 状态 ， 相 关 学 
者 从 计算 机 科学 领域 的 整体 或 部 分 的 角度 ， 对 计算 
机 科学 的 发 展 过 程 进行 论述 。 如 , 郭 玉 等 所 采用 文献 
计量 学 和 科学 计量 学 的 研究 方法 ， 从 论文 的 时 间 分 
布 、 被 引用 情况 及 主题 分 布 等 方面 , 分 析 中 国 作 者 在 
国际 期 刊 发 表 的 计算 机 科学 论文 ,以 期 了 解 计算 机 
科学 的 学 科 现 状 ; 陈 国 良 等 上 综述 了 并 行 计算 的 一 体 
化 研究 现状 ， 并 展望 了 其 发 展 趋势 ; 章 锦 文 等 四 以 叙 
述 的 方式 , 讨论 了 神经 网 络 计算 机 的 研究 现状 和 发 
展 趋势 。 

上 述 人 研究 中 , 或 以 文献 数量 统计 的 方法 , 或 以 文献 
综述 的 方法 , 少 有 学 者 借助 主题 模型 分 析 计 算 机 科学 
类 文献 的 研究 主题 ， 以 适应 当前 文献 数量 巨 增 的 现状 。 
本 文 借助 LDA 模型 , 抽取 29 621 篇 计算 机 科学 文献 的 
研究 主题 , 并 根据 不 同时 段 的 主题 强度 , 深入 分 析 计 算 
机 科学 的 主要 研究 主题 及 各 个 主题 的 发 展 趋势 。 

LDA 模型 是 生成 式 概 率 主 题 模 型 ,假定 潜在 主 
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题 是 语 料 中 一 系列 词 的 概率 分 布 , 文档 是 一 系列 潜在 
主题 的 概率 分 布 。 在 LDA 模型 中 , 通常 同一 个 主题 
中 的 词 存 在 高 语义 相关 性 ， 如 在 主题 “安全 密 钥 ”中 ， 
词 “secure” “scheme” “key” “protocol” “signature” 
“authentic” 均 与 该 主题 高 度 相 关 。 此外, 与 一 般 的 聚 类 
方法 不 同 , LDA 允许 一 个 文档 同时 包含 多 个 主题 , 故 
更 适用 于 提取 科技 文献 的 研究 主题 (1。 

国外 研究 中 ,Griffiths 等 中 首先 将 LDA 模型 用 于 
提取 PNAS 期 刊 文献 摘要 的 主题 及 主题 变化 趋势 ， 并 
用 Gibbs 抽样 算法 推断 LDA 模型 。 随 后 , LDA 模型 
被 陆续 用 于 分 析 生 物 医 学 趾 、 计算 机 语言 学 钻 、 文 献计 
量 学 外、 图 书信 息 管理 学 (小 、 经 济 学 等 领域 的 科技 
期 刊 文献 ,自动 挖掘 大 量 文献 的 研究 主题 了解 某 个 
领域 的 研究 状态 。 

国内 相关 学 者 也 多 应 用 LDA 模型 进行 科技 文献 
的 情报 分 析 ， 如 贺 亮 等 上 9 对 NIPS 论文 集 和 ACL 论文 
集 进 行 实验 , 用 主题 词 的 类 TF-IDF 值 , 探讨 主题 的 内 
容 演 化 过 程 ; 关 鹏 等 睛 对 不 同 语料库 下 的 LDA 主题 
模型 进行 对 比 研究 , 并 对 主题 抽取 效果 进行 评价 ; 李 
湘 东 等 (在 LDA 模型 中 引入 时 间 因 素 , 以 探测 科技 
期 刊 的 主题 演化 ; 王 日 芬 等 中 以 知识 流 领域 为 研究 对 
象 , 借助 LDA 挖 气 不 同学 科 下 的 知识 流 研 究 结 构 。 此 
外 ,为 满足 不 同 的 科技 情报 分 析 需 求 , 许多 学 者 对 
LDA 模型 进行 改进 ， 如 王 萍 5 串联 文献 的 文本 信息 和 
作者 信息 , 构建 主题 -作者 (Topic-Author) 的 模型 ; 叶 
春 芋 等 上 综合 科研 文献 的 关键 词 和 引文 ,构建 引文 - 
主题 概率 模型 ; 王 平 考虑 文献 发 表 的 时 间 和 题 录 信 
息 , 构建 分 层 LDA 模型 , 找到 热点 话题 以 及 话题 的 演 
化 特性 ; 王金龙 等 中 针对 目前 科研 文献 主题 演化 概率 
分 布 问 题 ,阐述 了 主题 与 事件 的 关联 关系 , 提出 一 种 
新 型 的 基于 模块 化 的 主题 方法 ; 李湘 东 等 "将 SVM 
算法 加 入 LDA 模型 中 , 优化 主题 分 类 ; 秦 晓 慧 等 声 在 
LDA 模型 中 加 入 主题 关联 过 滤 规 则 ， 以 期 减少 非 关 联 
主题 的 干扰 问题 ; 杨 如 意 等 中 基于 LDA 模型 , 融合 作 
者 和 时 间 两 个 外 部 特征 ， 以 展示 文档 内 容 、 主 题 和 作 
者 之 间 的 动态 关系 。 

综 上 , 笔者 借助 LDA 经 典 模型 对 计算 机 科学 文 
献 进行 主题 抽取 , 并 对 各 个 主题 的 内 容 和 强度 进行 细 
致 分 析 ， 以 期 深入 了 解 我 国 计 算 机 科学 在 2006 年 - 
2015 年 期 间 的 研究 状态 。 
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3 数据 与 实验 


3.1 数据 来 源 

以 《中 文 核心 期 刊 要 目 总 览 (2014 年 版 ) ) 为 基准 ， 
选取 “TP 自动 化 技术 、 计 算 机 技术 ”学 科 中 排名 前 10 
的 期 刊 文献 为 目标 样本 ,对 计算 机 科学 领域 的 文献 话 
题 进行 提取 和 分 析 。 人 研究 数 据 来 自 中 国 科学 引文 数据 
库 , 具体 检索 策略 为 : 出 版 物 名 称 =“ 计 算 机 学 报 ”OR 
“软件 学 报 ”OR“ 自 动 化 学 报 ”OR“ 计 算 机 研究 与 发 
展 ” OR“ 控 制 与 决策 ”OR“ 中 国 图 象 图 形 学 报 ”OR 
“系统 仿真 学 报 ”OR“ 计 算 机 辅助 设计 与 图 形 学 学 报 ” 
OR“ 计 算 机 应 用 ”OR“ 计 算 机 科学 ” 时间 跨度 = 
2006-2015， 研 究 方向 =“Computer Science”, 文献 类 型 
=“Article”， 选 取 字 段 “英文 标题 (TD) 、 英 文 关键 字 (DE)、 
英文 摘要 (AB)、 来 源 期 刊 (SO) 和 发 表 时 间 (PY)”, 得 到 
31 983 条 记录 。 由 于 本 文 试图 通过 分 析 科 技 文献 的 摘 
要 来 提取 主题 , 因此 首先 需要 删除 前 言 、 致 谢 等 非 科 
技 文献 ， 其 次 删除 标题 、 关 键 词 、 摘 要 不 完整 的 文献 ， 
最 后 获得 29 621 条 文献 记录 。 

2006 年 -2015 年 期 间 , 样本 中 各 个 期 刊 的 计算 机 
科学 类 文献 占 比 如 图 1 所 示 。 占 比较 大 的 依次 是 《 计 
算 机 应 用 》(24%)、《 计 算 机 科学 》(22%)、《 系统 仿真 
学 报 》(16%), 这 是 由 于 这 三 个 期 刊 的 发 文 数量 一 直 
较 大 。 
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图 1 样本 中 各 个 期 刊 的 计算 机 科学 类 文献 占 比 


样本 中 计算 机 科学 类 文献 数量 在 2006 年 -2015 年 
的 变化 情况 如 图 2 所 示 。2006 年 -2009 年 文献 数量 相 
对 比较 平稳 ,随后 出 现 一 个 下 降 趋势 。 
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图 2 2006 年 -2015 年 样本 文献 年 度 总 量变 化 趋势 


3.2 ”文献 数据 预 处 理 与 LDA 参数 设置 

主题 模型 的 数据 输入 格式 为 文档 - 词 和 矩阵， 一 行 
表示 一 个 文档 , 一 列表 示 一 个 词 。 和 矩阵 的 条 目 mi 表示 
第 j 个 词汇 出 现在 第 i 个 文档 中 的 次 数 ,矩阵 的 行 数 等 
于 语料库 中 的 文档 数 , 矩阵 的 列 数 等 于 词汇 库 中 词汇 
量 的 大 小 。 因 而 得 到 文献 数据 后 , 需要 对 文献 进行 预 
处 理 ， 以 得 到 文档 - 词 和 矩阵。 本 文 借用 开源 软件 R 中 的 
tm 包 对 文献 数据 进行 预 处 理 ,， 首先 将 每 篇 文献 的 英文 
标题 、 英 文 关键 字 和 英文 摘要 分 别 合 并 , 得 到 29 621 
个 文档 ; 再 将 文档 文本 化 , 形成 一 个 语 料 ， 并 依次 去 
除 标点 符号 及 数字 ,以 及 与 主题 内 容 无 关 的 停顿 词 (如 
and，then，paper); 最 后 将 语 料 中 的 词 进行 词根 化 ,并 
删除 在 少 于 3 个 文档 中 出 现 的 词 ， 从 而 得 到 一 个 
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29 621 行 10 405 列 的 文档 - 词 矩 阵 。 

得 到 文档 - 词 矩 阵 后 ,借助 开源 软件 R 中 的 
topicmodels 包 呈 构建 LDA 模型 。 在 构建 模型 前 需 
要 确定 模型 的 最 优 主 题 数 , 故 设 定 文档 -主题 分 布 8 的 
参数 a=0.1, 主题 - 词 分 布 的 参数 上 叶 0.1， 和 迭代 次 数 
iter=1000,， 选择 Gibbs Sampling 估计 模型 的 后 验 参数 。 
首先 将 主题 数 K 依次 定 为 5-50, 发 现 玉 在 17 与 20 之 
间 ， 模 型 的 困惑 度 较 低 。 因 此 将 主题 数 依次 设 定 为 17、 
18、19、20, 运行 LDA 模型 ， 观察 主题 之 间 的 语义 排 
他 性 与 主题 内 部 的 语义 一 致 性 "发 现 主题 数 为 18 的 
主题 模型 ， 能 较 好 地 涵盖 计算 机 领域 的 研究 内 容 。 因 
此 将 主题 数 K=18 作为 本 实验 的 最 优 主 题 数 。 

LDA 模型 的 运行 结果 主要 有 两 个 : 29 621 篇 文献 的 
主题 分 布 0;;, 其 中 0;; 表示 文献 i 中 主题 j 的 概率 ; 18 个 
主题 的 词 项 分 布 gjw 其 中 qj, 表示 主题 ] 中 词 v 的 概率 。 
3.3 ”实验 结果 与 分 析 

(1) 文献 -主题 分 布 与 主题 - 词 分 布 

根据 LDA 模 型 的 实验 结果 , 得 到 29 621 篇 文献 的 
主题 分 布 6j 和 18 个 主题 的 词 项 分 布 piw 如 表 1 和 表 
2 所 示 。01,14=0.8417 表明 文献 1 的 主要 研究 内 容 为 主 
题 14， 即 “检测 算法 ”。 根 据 表 1 可 进行 主题 强度 分 析 ， 
也 可 对 文档 进行 分 类 ; 根据 表 2 的 高 概率 主题 词 ， 可 
为 每 个 主题 命名 ,同时 分 析 主 题 的 内 容 。 


表 1 计算 机 科学 类 文献 的 主题 分 布 

65 1 六 3 4 14 15 16 17 18 

1 0.0098 0.0009 0.0009 0.0009 0.8417 0.0009 0.0009 0.0098 0.0009 

2 0.0010 0.0010 0.0317 0.2464 0.5634 0.0010 0.0112 0.0112 0.0215 

3 0.0010 0.0010 0.0110 0.8527 0.0010 0.0210 0.0010 0.0010 0.0010 
29619 0.0007 0.0571 0.0007 0.0078 0.4168 0.0007 0.0007 0.0007 0.0007 
29620 0.0017 0.0017 0.0017 0.0017 0.3027 0.0017 0.0184 0.0017 0.0017 
29621 0.0011 0.0011 0.5981 0.0011 0.0544 0.0011 0.0011 0.0757 0.0544 


根据 表 2 的 主题 - 词 分 布 , 发 现 主 题 内 部 的 词 高 度 
相关 。 如 主题 “安全 密 钥 ”中 高 概率 词 secur、scheme、 
key、protocol 、signatur 和 authent, 均 与 主题 “ 密 钥 安 
全 ”紧密 相关 。 这 表明 LDA 模型 在 提取 计算 机 科学 领 
域 文献 的 潜在 主题 方面 是 有 效 的 。 

(2) 主题 强度 分 析 

主题 强度 主要 描述 了 主题 在 某 一 时 期 的 热门 程 
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度 , 本 文中 用 6 表示 。 在 某 一 时 期 关于 茶 个 主题 的 文 
献 数 量 越 多 ， 说 明 该 主题 的 强度 越 高 ， 可 以 被 认为 是 
热点 主题 。 为 了 解 计算 机 领域 的 主题 变化 模式 , 笔者 
将 时 间 “ 年 份 " 作 为 变量 , 将 文档 -主题 分 布 0 按 年 计 
算 , 得 出 各 个 主题 的 主题 强度 分 布 情况 。 根 据 主题 每 
年 的 强度 大 小 , 可 做 一 个 自 回归 模型 ， 找 出 主题 强度 
上 升 的 研究 主题 及 主题 强度 下 降 的 研究 主题 。 本 实验 
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表 2 计算 机 科学 类 文献 主题 的 6 个 高 概率 词 
主题 标识 主题 的 6 个 高 概率 词 
1 安全 密 钥 secur scheme key protocol signatur authent 
2 计算 系统 system comput agent model applic technolog 
3 无 线 传 感 网 络 network node rout sensor wireless algorithm 
4 图 像 分 割 imag segment algorithm color region edg 
5 控制 系统 model control system simul predict time 
6 点 线 面 point surfac curv algorithm model mesh 
7 图 像 处 理 algorithm code watermark imag transform compress 
8 并 行 系统 parallel perform data system memori comput 
9 特征 识别 featur recognit classif vector face algorithm 
10 数据 挖掘 data algorithm cluster queri tree set 
11 资源 调度 schedul time TeSOUIC algorithm task System 
12 系统 仿真 simul system model virtual design process 
13 软件 服务 servic model web softwar system architectur 
14 检测 算法 algorithm object detect track motion match 
15 优化 算法 algorithm optim search particl genet solv 
16 测试 模型 model test system net program softwar 
17 语义 信息 模型 semant inform TetrieV model text web 
18 互联 网 安全 network detect model trust evalu system 


( 注 : 表 中 的 词 已 经 过 词根 化 处 理 。) 


中 , 在 95% 的 置信 水 平 下 , 18 个 主题 中 有 7 个 趋势 上 升 
的 主题 和 6 个 趋势 下 降 的 主题 ， 其余 5 个 研究 主题 的 
趋势 变化 不 明显 。 表 3 是 主题 强度 发 生 显 著 变化 的 13 


个 主题 。 


表 3 主题 强度 发 生 显著 变化 的 主题 
主题 强度 上 升 的 主题 主题 强度 下 降 的 主题 


主题 标签 上 升 趋 势 主题 标签 下 降 趋势 

图 像 分 割 0.318” (0.060) “无 线 传 感 网 络 -0.140”(0.058) 
并 行 系统 0.218”(0.049) ”控制 系统 -0.189”(0.065) 
特征 识别 0.297” (0.035) ”点 线 面 -0.142”(0.048) 
检测 算法 0.186”(0.039) ” 图像 处 理 -0.167”™ (0.027) 
优化 算法 0.138”(0.035) ”资源 调度 -0.450”(0.120) 
语义 信息 模型 0.160”(0.037) ”软件 服务 -0.479”” (0.050) 


互联 网 安全 0.185” (0.023) 

( 注 : “表示 99% 的 置信 水 平 , “表示 95% 的 置信 水 平 。) 

主题 “图 像 分 割 ”与 “特征 识别 ”的 主题 强度 上 升 较 
快 , 主要 源 于 大 数据 时 代 下 ， 人 们 越 来 越 注重 借助 计 
算 机 技术 对 文本 进行 分 析 ， 以 减少 相关 研究 者 的 工作 
量 。 主 题 “ 资 源 调度 ”与 “软件 服务 ”的 主题 强度 下 降 较 
快 ,但 需要 注意 主题 强度 下 降 并 不 表明 该 主题 不 受 研 


究 者 关注 ， 只 是 其 受 关注 程度 有 下 降 的 趋势 。 

为 观察 不 同时 期 的 主题 强度 差异 , 可 将 2006 年 
2015 年 划分 为 两 个 时 间 窗 口 期 : 2006 年 -2010 年 与 
2011 年 -2015 年 。 表 4 是 不 同时 期 下 的 5 个 热点 主题 
及 其 主题 强度 。 据 表 4 可 知 , 2006 年 -2015 年 期 间 ， 热 
点 主题 依次 为 "图像 分 割 "“ 无 线 传 感 网 络 ”“ 数 据 控 
掘 ”“ 系 统 仿真 " “检测 算法 ”。 同 时 ,对比 不 同时 间 
窗口 的 主题 强度 ,发 现 主题 “图 像 分 割 "、“ 无 线 传 感 网 
络 ”、“ 数 据 挖掘 ”的 主题 强度 始终 较 高 ; 主题 “特征 识 
别 ” 在 2011 年 -2015 年 期 间 的 主题 强度 较 高 ,因而 其 相 
对 其 他 主题 来 说 ,可 被 定义 为 新 兴 主 题 。 


表 4 不 同时 期 的 5 个 高 强度 主题 

2006-2015 2006-2010 2011-2015 

主题 强度 主题 强度 主题 强度 
图 像 分 割 0.0751 系统 仿真 0.0741 图 像 分 割 0.0861 
无 线 传 感 网 格 0.0701 无 线 传 感 网 络 0.0727 数据 挖掘 0.0682 
数据 挖掘 0.0667 图 像 分 割 | 0.0676 检测 算法 0.0663 
系统 仿真 0.0623 软件 服务 0.0665 无 线 传 感 网 络 0.0663 
检测 算法 0.0617 数据 挖掘 0.0656 特征 识别 0.0646 
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(3) 文献 聚 类 

为 更 好 地 了 解 不 同 主题 的 研究 状态 , 根据 表 1 中 
的 概率 主题 分 布 0;;, 对 每 个 主题 j 下 的 文献 数量 进行 
分 析 。 本 文 设 定 9 的 阔 值 为 0.4""， 即 如 果 文 献 i 在 主 
题 j 中 的 概率 值 大 于 等 于 0.4, 则 文献 1 属于 主题 j。 表 5 
是 每 个 主题 下 的 文献 数量 及 其 占 比 。 


表 5 各 个 主题 下 的 文献 数量 及 占 比 (9 二 0.4) 


主题 文档 数 比例 
安全 密 钥 1 144 4.24% 
计算 系统 925 3.43% 
无 线 传 感 网 络 2 146 7.96% 
图 像 分 割 2 213 8.21% 
控制 系统 1159 4.30% 
点 线 征 1 417 5.26% 
图 像 处 理 1 258 4.67% 
并 行 系统 1 373 5.09% 
特征 识别 1 449 5.37% 
数据 挖掘 1 644 6.10% 
资源 调度 928 3.44% 
系统 仿真 1781 6.61% 
软件 服务 1 595 5.92% 
检测 算法 1 749 6.49% 
优化 算法 1 190 4.41% 
测试 模型 1 508 5.59% 
语义 信息 模型 1170 4.34% 
互联 网 安全 1 298 4.81% 
交叉 主题 1014 3.76% 
合计 26 961 100% 


根据 文献 在 每 个 主题 的 占 比 ,发现 主题 “图 像 分 
制 "、“ 无 线 传 感 网 络 "、“ 系 统 仿真 "、“ 检 测算 法 "、“ 数 
据 控 气 "的 文献 数量 均 相 对 较 高 , 与 表 4 的 结果 趋同 ， 
再 次 表明 LDA 模型 适合 于 挖掘 计算 机 科学 类 文献 的 
研究 主题 。 

为 更 好 地 理解 主题 的 研究 内 容 , 可 以 根据 文档 的 
概率 主题 分 布 0 ,对 各 个 主题 选择 与 其 高 度 相关 的 文 
献 。 表 6 展示 了 与 热点 主题 "图像 分 割 "、“ 无 线 传 感 风 
绝 "、“ 系 统 仿真 "、“ 检 测算 法 "及 “数据 挖 气 " 高 度 相关 
的 3 个 典型 文档 。 通 过 阅读 与 主题 高 度 相关 的 的 典型 
文档 , 能 够 更 好 地 把 所 主题 的 研究 内 容 。 
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表 6 对 热点 主题 进行 文献 举例 


主题 代表 性 文档 (作者 , 年 份 , 论文 题目 ) 
张 建 伟 等 (2013), 《局 部 信 驱 动 下 的 脑 MR 图 像 分 割 与 偏 
移 场 恢 复 耦 合 模型 》 


图 像 刘 瑞 娟 等 (2012), 《融合 局 部 和 全 局 图 像 信息 的 活动 轮廓 
分 割 模型 》 


任 多 等 (2011),《 基于 局 部 区 域 拟 合 模型 的 磁 共 振 图 像 分 害 

与 偏 移 估计 算法 》 

徐 昕 等 2010)《 基 于 链 路 质量 的 无 线 传感器 网 络 任 播 路 
协议 》 

无线 部 晓 搬 等 2009)《 基 于 路 径 损耗 的 无 线 传感器 网 络 分 布 式 

传记 中 部 史 民 0 

0 折 扑 控制 算法 》 

李 小 亚 等 (2008),《 一 种 异 构 传感器 网 络 的 能 量 有 效 路 1 

算法 》 

丁 海燕 等 2009) 《基于 HLA 的 般 空 导弹 反 导 仿真 系统 的 
有 设计 与 实现 》 

友 统 “起 姐 东 等 009),，《ARJ21 飞机 工程 模拟 器 关键 技术 研究 》 
张 各 等 (2008)， 《水 下 滑翔 机 器 人 实时 仿真 平台 研究 与 
开发 》 

李 伟 生 等 (2014),《 基 于 时 空 背景 模型 的 自 适应 运动 目标 检 


检测 测 方法 》 

算法 孟 苑 等 (2008), 《基于 运动 点 积累 的 视频 运动 目标 提取 》 

王 哲 等 (2008), 《一 种 基于 立体 视觉 的 运动 目标 检测 算法 》 

郭 镭 等 (2011), 《动态 数据 库 中 的 频繁 子 树 挖 所 算法 》 

数据 田 卫 东 等 (2008), 《基于 简化 分 辨 矩阵 的 粗糙 集 属性 约 简 

挖掘 算法 》 
陈 明 等 (2006), 《一 种 有 效 的 基于 图 的 关联 规则 挖掘 算法 》 

( 注 : 本 文 定义 车 9j> 0.95, 则 高 度 相关 。) 


运 


4 结 语 


本 文 借助 LDA 主题 模型 ， 结 合 模型 困惑 度 和 对 
主题 内 容 的 经 验 判断 来 确定 模型 的 最 优 主 题 数 ， 同 时 
考虑 文献 的 发 表 时 间 , 针对 29 621 篇 计算 机 科学 文献 
挖掘 出 18 个 潜在 主题 , 并 对 这 18 个 主题 的 内 容 和 强 
度 进行 研究 , 通过 分 析 找 到 7 个 趋势 上 升 的 主题 和 6 
个 趋势 下 降 的 主题 。 根 据 LDA 模型 输出 的 29 621 个 
文档 的 概率 主题 分 布 , 设 定 主题 概率 阔 值 ， 将 文献 分 
配 到 各 个 主题 下 进行 数量 统计 ， 并 对 热点 主题 进行 文 
档 列 举 , 细致 了 解 热 点 主题 的 研究 内 容 。 结 果 表 明 , LDA 
模型 能 够 较为 准确 地 提取 计算 机 科学 文献 的 研究 主题 ， 
有 利于 科研 人 员 对 该 学 科 领 域 的 发 展 状态 进行 初步 了 
解 ， 同 时 把 握 未 来 的 研究 方向 寻找 新 兴 主 题 。 

当然 , 本文 亦 存在 不 足 之 处 : 

(1) 本 文选 取 的 样本 数量 较 大 (29 621 篇 文献 ), 具 
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有 一 定 的 实践 意义 , 但 仅 考 虑 国内 计算 机 科学 领域 的 
专业 期 刊 , 未 考虑 国内 学 者 在 国内 综合 类 优秀 期 刊 及 
国外 优秀 期 刊 上 发 表 的 计算 机 科学 类 文献 , 未 来 研究 
可 考虑 扩大 样本 容量 进行 主题 分 析 ， 以 充分 了 解 我 国 
计算 机 科学 领域 的 发 展 状态 ; 

(2) LDA 模型 假定 主题 之 间 相 互 独立 , 而 同一 个 
学 科 领 域 的 主题 之 间 往 往 存 在 不 可 分 割 的 联系 , 因此 
未 来 研究 中 ,可 以 将 相关 主题 模型 (Correlated Topic 
ModeDR 的 思想 加 入 到 模型 中 ; 

(3) 本 文 仅 考 虑 发 表 时 间 这 一 个 外 部 特征 , 未 来 
研究 中 可 考虑 借助 结构 主题 模型 (Structural Topic 
ModeDP25 2 加 入 作者 特征 、 期 刊 类 别 等 外 部 信息 , 更 
精确 地 了 解 一 个 学 科 领 域 的 研究 状态 。 
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Extracting Topics of Computer Science Literature with LDA Model 


Yang Haixia Gao Baojun Sun Hanlin 
(Economics and Management School, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This paper employs text mining technology to automatically identify research topics from large 
amounts of scientific literature and then detects future trends. [Methods] First, we used the LDA model to find both 
topical prevalence and contents of articles published by the top ten computer science journals in China. Second, we 
described the evolution of major topics with the help of publishing dates. [Results] We extracted 18 topics from 29, 621 
computer Sclence papers and then identified 7 trending topics as well as 6 less popular ones. [Limitations] Our study 
did not include papers published overseas by Chinese authors. [Conclusions] The proposed method could help us learn 
the evolution of computer science research and then grasp the emerging trends. 
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